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摘 要 : [目的 /意义 ] 面 对 多 学 科 领 域 .多 类 型 用 户 的 专题 情报 服务 需求 ,建立 专题 情报 数据 管理 与 智能 分 析 平 台 。 实 现 
专题 情报 分 析 的 流程 化 和 智能 化 ,同时 对 融入 专家 智慧 的 专题 情报 分 析 过 程 数据 进行 管理 ,丰富 服务 模式 ,提升 
服务 需求 响应 速度 。[ 方 法 /过 程 ] 在 调研 已 有 相关 研究 与 实践 分 析 基 础 上 ,提出 平台 设计 思路 、 建 设 框架 ,对 平台 
主要 功能 和 关键 技术 进行 剖析 。| 结果 / 结论] 专题 情 报 数据 管理 与 智能 分 析 平 台 已 建设 完成 。 平 台 集 成 了 多 来 
源 多 类 型 数据 ,打通 了 从 数据 到 分 析 的 服务 链条 。 谋 入 了 多 种 情报 分 析 方 法 和 深度 学 习 算 法 ,实现 了 多 维 多 层 次 


ge 分 析 服 务 。 能 够 对 分 析 过 程 和 情报 分 析 人 员 历 史 积累 数据 进行 管理 ,实现 数据 共享 和 重复 利用 。 
词 : 专题 情报 ”数据 管理 智能 分 析 情报 分 析 
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的 问题 。 

本 文 在 梳理 分 析 现 有 相关 平台 软件 .需求 痛 点 、 工 
作 流 程 等 的 基础 上 ,利用 “专家 + 平台 + 数据 "模式 ， 
以 大 数据 技术 人工 智能 技术 发 展 为 契机 ,驱动 建设 专 
题 情报 数据 管理 与 智能 分 析 平 台 。 一 方面 对 NSTL 情 
报 分 析 人 员 线 上 或 线 下 的 高 价值 中 间 分 析 结 果 数 据 进 
行 统一 存储 和 管理 ; 另 一 方面 充分 利用 NSTL 和 文献 
情报 中 心 建设 的 结构 化 和 规范 化 数据 ,集成 多 种 情报 


能 技术 的 发 展 为 专题 情报 分 析 带 来 新 的 契机 。 
科技 图 书 文献 中 心 ( National Science and Technolo- 
brary ，NSTL) 面向 国家 战略 需求 提供 专题 情报 服 
有 十 余 载 ,积累 了 大 量 的 专题 情报 分 析 过 程 数 据 ， 


但 受 些 数据 一 直 处 于 分 散 自 存储 状态 。 如 何 将 这 些 融 
人 拷 技 情报 专家 智慧 的 数据 进行 统一 管理 ,为 实现 专 
题 情报 分 析 过 程 快 速 复 现 .专业 信息 共享 和 提供 新 型 
数据 服务 建立 基础 ,是 值得 考虑 的 问题 。NSTL .中 
科学 院 文献 情报 中 心 (以 下 简称 “文献 情报 中 心 ”) 通 
过 多 种 方式 获取 了 多 源 异 构 资 源 并 进行 了 汇聚 融 
合 ”“”。 如 何 对 已 汇聚 的 科技 大 数据 资源 价值 进行 充 
分 挖掘 利用 ,弥补 人 工 为 主 进行 数据 源 六 选 、 数 据 采 
集 数据 装载 和 数据 分 析 的 不 足 , 建 立 基于 多 源 数 据 计 
算 的 专题 情报 分 析 快 速 响应 机 制 ,是 另 一 个 值得 考虑 


分 析 方 法 和 深度 学 习 算 法 ,打通 从 数据 到 分 析 的 服务 
链条 。 探 索 多 种 形式 分 析 服 务 , 实 现在 线 专题 情报 分 
析 服 务 的 流程 化 和 智能 化 。 以 期 为 相关 情报 研究 提供 
平台 工具 抓 手 ,为 服务 平台 建设 提供 参考 和 借鉴 。 


2 ”相关 研究 与 实践 分 析 
大 数据 环境 下 ,用户 需求 与 应 用 场景 越 来 越 重要 。 
本 文 对 专题 情报 分 析 工 具 数据 管理 工具 及 相关 研究 


进行 工具 调研 和 文献 调研 ,并 与 NSTL 一 线 专题 情报 
服务 人 员 进 行 交 流 访谈 ,对 用 户 需 求 进行 深入 挖掘, 为 


x* 本 文系 NSTL 资助 项 目 “ 专 题 情报 数据 协同 管理 与 分 析 服 务 ”"( 项 目 
年 主题 论坛 与 纪念 文集 出 版 "项 目 资助 出 版 。 
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于 倩 傅 , 钱 力 , 程 冰 , 等 . 专题 情报 数据 管理 与 智能 分 析 平 台 的 构建 [可 .图书 情报 工作 ,2020 ,64(24) :92 - 105. 


平台 应 用 场景 设计 建立 基础 。 
2.1 专题 情报 分 析 工具 研究 

专题 情报 分 析 工 具 按 照 能 否 在 线 提供 服务 ,可 分 
为 平台 类 工具 和 软件 类 工具 。 平 台 类 工具 包括 专门 提 
供 情报 分 析 服 务 的 平台 (如 InCites™ 、SciVal™”] 、Inco- 
pt' wizdomAI'"1 等 ) 以 及 科技 文献 检索 平台 增加 分 析 
评价 功能 (如 Dimensions'*!、Web of Science'?”1 、 
CNKI "万 方 数据 知识 服务 平台 … 等) ,后 一 类 平台 
服务 方向 从 知识 发 现 向 知识 评价 过 渡 。 软 件 类 工具 包 
括 美国 德 雷 塞 尔 大 学 的 CiteSpace'" ,荷兰 莱 顿 大 学 的 
VOSviewer'" J .印第安纳 大 学 的 Sci2'" 开源 工具 Ge- 
phic5 \ 科 害 唯 安 的 DDA' 瑞典 于 默 奥 大 学 的 Bibex- 
celL7 等 。 

寺 = 刘 斐 等 "认为 InCites 平台 ,SciVal 平台 包含 了 大 
评价 指标 ,能 够 承担 大 部 分 科研 影响 力 分 析 评 价 工 
午 景 龙 等 ' 认为 智能 语义 检索 、 集 成 和 灵活 的 数 
氢 邵 理 综合 化 分 析 视 角 、 内 容 智 能 化 的 自动 报告 是 
Ineopt 等 专利 情报 分 析 工 具 的 主要 发 展 趋势 。C. 
Hesqog 等 ”指出 Dimensions 将 多 类 型 数据 ( 出 版 物 、 
气 邮 .基金 项 目 政 策 临床 试验 ) 和 不 同 维度 分 析 ( 赵 
手 绍 析 研究 人 员 分 析 、 基 金 项 目 分 析 、 机 构 分 析 、 对 比 
秽 辣 ) 集 成 在 一 个 平台 ,期望 集 成 促进 创新 。 泰 勒 - 否 
六 这 出 版 集团 (Taylor & Francis Group ) 利用 大 数据 
分 榴 与 机 器 学 习 技术 ,研发 wizdomAI" ,涵盖 出 版 物 、 
专 潭 . 基 金 项 目 . 机 构 、 作 者 等 多 类 型 数据 ,为 科研 人 员 
与 厂 究 机 构 提 供 面向 全 价值 链 的 深度 分 析 服 务 。 于 晓 
彤 锰 ”" 研究 发 现 CiteSpace 、VOSviewer .DDA 、Bibexcel 
等 看 知识 图 谱 研究 中 得 到 了 高 频 应 用 。 杨 静 等 汪 研 
究 发 现 Sci2 适合 大 量 数据 的 去 重 , 网络 输出 可 编辑 能 
力 强 。 邓 君 等 ”认为 Gephi 更 适用 于 处 理 动态 大 数 
据 ,可 视 化 功能 强大 。 

从 已 有 专题 情报 分 析 工 具 实践 与 相关 研究 来 看 ， 
平台 类 工具 向 多 源 化 .智能 化 、 细 粒度 分 析 方向 发 展 ， 
多 源 异 构 数据 汇聚 融合 成 为 情报 分 析 的 新 型 数据 基础 
设施 ,利用 人 工 智 能 技术 手段 挖 气 知识 成 为 新 的 增长 
点 。 软 件 类 工具 功能 各 有 特色 ,在 数据 清洗 .可 视 化 分 
析 等 功能 点 上 有 很 多 值得 借鉴 的 地 方 。 但 完成 一 个 报 
告 ,从 数据 获取 到 数据 分 析 ,往往 需要 在 多 个 软件 工具 
间 切 换 ,通常 无 法 实现 一 站 式 操作 ,也 不 具备 分 析 
过 程 数 据 管理 功能 。 已 有 研究 -指出 ,国外 的 情报 
分 析 工 具 较 多 ,但 部 分 产品 存在 价格 高 .出 口 限 制 或 知 
识 产权 壁垒 等 问题 。 国 内 相关 工具 研发 不 足 ,在 情报 
研究 中 发 挥 作用 有 限 ,研发 投入 有 待 提高 。 因 此 ,建设 


具有 自主 知识 产权 的 情报 分 析 工 具 十 分 必要 。 
2.2 数据 管理 工具 研究 

在 数据 管理 工具 方面 ,最 具 显 示 度 的 是 科学 数据 
管理 平台 的 研究 与 实践 。 国 内 外 科学 数据 管理 平台 建 
设 快 速 发 展 ,包括 哈佛 大 学 Dataverse ”Dryad 数据 仓 
储 ' 澳大利亚 国家 数据 服务 网 ANDS'” .中 国 科 学 
院 数据 云 ” ,北京 大 学 开放 研究 数据 平台 ”武汉 大 
学 科学 数据 管理 平台 ”等 。 

鹤 旭 等 认为 数据 管理 平台 核心 服务 功能 包括 
数据 管理 计划 ,数据 创建 数据 存储 .数据 获取 数据 分 
析 、 数 据 共享 ,Dataverse .ANDS 具有 上 述 所 有 功能 。 卫 
军 朝 等 “认为 国内 的 科学 数据 管理 平台 多 是 数据 主 
导 型 平台 ,主要 是 对 用 户 已 经 生成 的 科学 数据 进行 存 
储 和 管理 ,如 武汉 大 学 科学 数据 管理 平台 .中国 科学 院 
数据 云 。 朱 玲 等 "1 比较 发 现 Dataverse .Dryad 均 面向 
多 学 科 , 但 前 者 以 社会 科学 为 主 , 元 数据 方案 以 DDI 元 
数据 标准 为 基础 扩展 而 成 ;后 者 以 生物 科学 .生态 科学 
为 主 , 元 数据 方案 遵循 DC 元 数据 标准 。 

从 已 有 研究 和 平台 存储 的 数据 来 看 ,不 同 的 数据 
管理 平台 功能 特点 不 同 ,学 科 范 围 重点 不 同 ,元 数据 方 
案 也 有 所 差异 。 有 些 数 据 管理 平台 以 本 机 构 科学 数据 
的 管理 和 保存 为 目标 ,如 国内 部 分 数据 管理 平台 。 有 
些 以 收集 和 管理 社会 不 同 机 构 的 科学 数据 为 目标 ,如 
Dryad .ANDS。 目前 ,武汉 大 学 科学 数据 管理 平台 中 的 
计量 分 析 研 究 数 据 集 中 存储 了 5 条 情报 分 析 相 关 数 
据 , 数 据 描述 字段 包括 题名 、 作 者 、 日 期 相关 描述 、 
URI、 所 属 数据 集 ,附件 为 统计 分 析 数 据 集 、 分 析 报 告 
等 。 北 京 大 学 开放 研究 数据 平台 中 也 有 人 情报 分 析 相 关 
数据 ,但 存储 比较 分 散 , 隶 属于 不 同 的 数据 空间 和 数据 
集 。 数 据 描 述 字段 包括 题名 、 作者、 联系 人 、 提 交 者 、 提 
交 日 期 .描述 .学 科 等 ,主要 是 对 分 析 数 据 集 的 存储 。 
总 体 而 言 ,情报 分 析 过 程 数 据 逐 渐 得 到 重视 ,但 重视 程 
度 还 远 远 不 够 。 

2.3 ”专题 情报 服务 实践 分 析 

笔者 分 别 与 来 自 NSTL 成 员 单位 (中 国 科 学 院 文 
献 情报 中 心 .中 国 科学 技术 信息 研究 所 、 中 国医 学 科学 
院 医 学 信息 研究 所 、 中 国 化 工 信 息 中 心 等 ) 一 线 从 事 专 
题 情报 服务 的 8 位 情报 分 析 人 员 进 行 了 交流 访谈 , 主 
要 了 解 当 前 专题 情报 服务 中 的 痛 点 及 情报 分 析 人 员 的 
需求 。 调 研发 现 ,在 专题 知识 组 织 体系 构建 .数据 获 
取 数据 清洗 .数据 分 析 ` 数 据 管理 等 方面 均 存 在 短 板 
在 专题 知识 组 织 体系 构建 方面 ,基本 靠 情 报 分 析 
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人 员 手 工 完成 资料 的 收集 与 整理 ,依赖 专家 指导 形成 
体系 ,缺少 自动 化 辅助 工具 。 在 数据 获取 方面 ,多 元 数 
据 的 获取 ( 基金 项 目 .政策 数据 等 非 传统 文献 ) 成 为 趋 
势 , 但 非 传统 文献 数据 源 分 散 , 需 人 工 去 不 同 网 站 检索 
收集 。 数 据 批量 获取 困难 ,如 Wos 单 次 下 载 限制 在 
500 条 ,每 个 查询 最 多 下 载 10 万 条 5 。 在 数据 量 大 
时 ,下 载 时 长 及 人 力 消耗 大 。 在 数据 清洗 方面 ,尽管 相 
关 工 具 起 到 了 一 定 的 辅助 作用 ,但 处 理 能 力 有 限 。 清 
洗 方式 主要 依赖 规范 词 表 和 规则 ,而 情报 分 析 人 员 累 
积 的 词 表 处 于 自 存储 自 管理 . 自 使 用 状态 。 在 数据 分 
析 方 面 ,目前 的 分 析 工 具 在 大 数据 量 分 析 时 存在 困难 ， 
通常 超过 5 万 条 数据 时 ,工具 运算 速度 慢 。 超 过 10 万 
条 数据 时 ,容易 卡 机 5 。 在 数据 管理 方面 ,专题 情报 
分 析 的 过 程 文件 通常 留存 在 课题 组 或 个 人 手中 ,缺乏 
数据 管理 规范 和 数据 管理 平台 ,难以 实现 数据 共享 。 


3 加 平台 设计 与 实现 


;名 平台 设计 思路 
< 专题 情 报 研究 是 针对 特定 用 户 特定 需求 的 情报 研 


态 性 与 个 性 化 ,这 个 特点 导致 很 难 生产 出 一 套 通用 的 
情报 分 析 系 统 ” 。 笔 者 在 借鉴 现 有 相关 研究 和 实践 
分 析 基 础 上 ,提出 专 J 9 能 分 析 平 台 
的 设计 思路 :(D 将 期 刊 论文 ,会 议论 文 .专利 基金 项 目 
Re a ee 
科技 大 数据 资源 ,支持 多 元 数据 的 获取 ;建立 人 机 结 
合 的 数据 获取 与 数据 清洗 途径 ,借助 相关 工具 和 算法 ， 
辅助 情报 分 析 人 员 建 立 知 识 组 织 体系 、 检 索 式 以 及 自 
动 化 数据 清洗 ;@) 利 用 大 数据 技术 ,提升 大 数据 量 数据 
分 析 的 速度 ;由 设计 多 维 多 层次 分 析 模 式 ,集成 多 种 情 
报 分 析 方 法 和 深度 学 习 算法 ,智能 化 生成 导出 报告 ;(5) 
对 线 上 或 线 下 的 高 价值 中 间 分 析 结 果 数据 进行 统一 存 
储 和 管理 ,实现 专题 情报 分 析 数 据 的 平台 化 管理 重复 
性 利用 以 及 知识 的 可 积累 。 
3.2 平台 整体 架构 

根据 平台 设计 思路 ,确定 专题 情报 数据 管理 与 智 
能 分 析 平 台 的 整体 架构 ( 见 图 1) 。 该 架构 包括 大 数据 
基础 架构 .大 数据 资源 体系 .专题 数据 获取 与 清洗 规 
范 .专题 情报 分 析 计算 模型 .数据 管理 与 分 析 服 务 5 个 


Bf。 由 于 情报 问题 与 任务 往往 具有 很 强 的 动 | 层次 。 
GN 
© 专题 情报 数据 管理 与 智能 分 析 平 台 
G 专题 情报 数 
办 据 管理 与 分 | 。 数据 管理 服务 。。 计量 分 析 服务 内 容 分 析 服 务 竞争 力 评价 服务 智能 情报 生成 服务 
~ 析 服 务 
Bs 认 
>< 证 
© a 科研 实体 数量 统计 分 析 。。 ”科技 闪现 网 络 分 析 模 型 文本 挖 拔 可 视 化 模型 。 。 大 样本 、 
-一 * 
析 计 算 模型 训 络 模 
三 神经 网 络 语义 标注 模型 科技 竞争 力 评价 模型 态势 报告 智能 生成 模型 型 
© 妆 
专题 数据 ”。”“ 艾 。 基础 检索 。 专业 检索 。 清 数据 集 清洗 国家 /机 构 / 人 员 /关键 词 规范 所 
获取 与 清 p 2 标 
洗 规范 所。 对 入 数据 。 知识 主题 。。 学 数据 检索 。 批量 删除 名 称 规范 库 。 自 定义 规则 六 
大 数据 期 刊 论文 专利 数据 战略 政策 资本 支持 
资源 体系 
会 议论 广 基金 项 目 会 业 数 据 市 场 数 据 内 
络 
i 3 
"6 so 
ee HDFS KA a redis So 2. pok so 三 吕 SQL 全 


1 平台 整体 架构 


3.2.1 大 数据 基础 架构 
中 国 科 学 院 文献 情报 中 心 基于 开源 Apache Ha- 
doop 生态 群 技术 ,建设 了 科技 大 数据 基础 平台 ,对 海量 


科技 资源 进行 汇聚 融合 。 笔 者 将 科技 大 数据 基础 平台 
的 多 源 汇聚 融合 资源 ,作为 专题 情报 数据 管理 与 智能 
分 析 平 台 的 基础 数据 来 源 。Elasticsearch 是 基于 Lu- 
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于 倩 倩 , 钱 力 , 程 冰 , 等 . 专题 情报 数据 管理 与 智能 分 析 平 台 的 构建 [J]. 图 书 情报 工作 ,2020 ,64(24) :92 -105. 


cene 的 分 布 式 .可 扩展 .高 实时 的 搜索 与 数据 分 析 引 
擎 ,在 专题 情报 数据 管理 与 智能 分 析 平 台中 用 于 存储 
基础 数据 以 及 存储 专题 检索 .导入 的 数据 ,并 支撑 检索 
结果 展示 及 情报 分 析 。Redis 是 一 个 高 性 能 的 key-value 
数据 库 , 用 于 缓存 用 户 访问 数据 ,并 为 平台 性 能 优化 提 
供 支持 。MySQL 用 于 专题 情报 分 析 过 程 数据 的 保存 。 
3.2.2 ”大 数据 资源 体系 

平台 拥有 “期 刊 论文 + 会 议论 文 + 专 利 数据 + 基 
金 项 目 + 政策 数据 + 企业 数据 + 资本 支持 + 市 场 数 
据 "等 多 来 源 多 类 型 的 数据 资源 体系 。 其中, 期刊 论 
文 .会议 论文 .专利 数据 为 NSTL 及 文献 情报 中 心 与 国 
内 外 出 版 商 .相关 信息 机 构 等 第 三 方 协 商 获 取 、 交 换 、 
购买 等 方式 建设 的 数据 资源 。 期 刊 论文 .会 议论 文 数 
据 体 量 达 1. 1 亿 多 条 ,专利 数据 体 量 达 8 000 多 万 条 。 

项 目 数据 为 自 采集 的 10 余 个 国家 的 基金 项 目 , 包 
播 冶 国 国家 自然 科学 基金 (NSF) .中 国 国家 自然 科学 
本 

昌 关 政策 信息 ,共计 26 万 余 条 。 企 业 数 据 .资本 
支 排 .市场 数据 提供 数据 存储 支持 ,目前 所 获得 的 数据 


较 少 。 
3 专题 数据 获取 与 清洗 规范 


平台 建立 了 人 机 结合 的 数据 获取 与 清洗 规范 途 
德 ,面向 专题 研究 领域 .方向 等 ,辅助 用 户 梳理 与 构建 
权威 .全 面 的 数据 资源 。 平 台 能 够 支持 多 类 型 数据 的 
纺 2E 措 述 表示 与 存储 管理 ,对 用 户 通过 检索 . 导 人 、 知 
识 定 题 币 选 等 方式 获取 的 专题 数据 进行 解析 、 集 成 汇 
桶 < 乔 重 禹 合 清洗 规范 。 用 户 在 平台 自动 化 处 理 数据 
基础 上 ,能够 对 获取 到 的 数据 集 以 及 科研 实体 如 国家 / 
地 区 机构、 人员 关键 词 等 进行 人 工 编辑 处 理 及 设置 

@ 创建 专题 


已 建 专题 浏览 
查看 专题 分 析 结果 
创建 新 专题 


运行 状态 监控 


查询 STKOS 范畴 
编辑 修改 
导 人 导出 


文本 /可视化 模式 


检索 结果 分 面 


四 专题 知识 组 织 \， @ 专题 数据 汇聚 \ 人 @ 清洗 规范 


基础 检索 /专业 检索 
导入 外 部 数据 


规则 ,优化 平台 自动 化 处 理 效果 。 
3.2.4 专题 情报 分 析 计 算 模型 

平台 舱 入 了 多 种 算法 模型 ,包括 科研 实体 统计 分 
析 模 型 共 现 网 络 分 析 模 型 文本 挖掘 可 视 化 模型 神 
经 网 络 语义 标注 模型 ,大 样本 训练 模型 .科技 竞争 力 评 
价 模型 等 。 通 过 数据 算法 和 计算 驱动 智能 化 分 析 , 从 
而 实现 专题 情报 数据 智能 计算 + 情报 专家 智慧 结合 的 
情报 分 析 报 告 的 快速 生产 与 递送 。 
3.2.5 数据 管理 与 分 析 服 务 

平台 提供 专题 情报 分 析 过 程 数据 及 本 地 数据 的 管 
理 功 能 ,提供 计量 分 析 \ 内 容 分 析 竞争 力 评价 分 析 等 
多 种 形式 分 析 服 务 。 不 同 的 分 析 服 务 对 应 的 数据 资源 
类 型 不 同 ,采用 的 分 析 计 算 模 型 也 有 所 不 同 。 平 台 文 
持 计量 分 析 内 容 分析 维度 的 筛选 , 文 持 分 析 报 告 的 智 
能 生成 导出 。 文 持 计量 分 析 、 内 容 分 析 和 苑 争 力 评价 
分 析 维 度 的 前 端 页 面 发 布 和 展示 。 
3.3 主要 功能 与 关键 技术 

专题 情报 数据 管理 与 智能 分 析 平 台 包 括 专 业 情 报 
分 析 \ 快 速 分 析 、 竞 争 力 评价 分 析 、 数 据 管理 4 个 主要 
的 功能 模块 。 快 速 分 析 借 鉴 Web of Science、CNKI 等 
在 文献 检索 基础 上 增加 计量 分 析 功 能 ,面向 通过 平台 
审核 的 用 户 提 供 服 务 , 供 用 户 快速 了 解 领域 概况 。 专 
业 情 报 分 析 、 数 据 管理 面向 情报 分 析 人 员 提 供 服务 。 
竞争 力 评价 分 析 面 向 特定 情报 分 析 人 员 提 供 服 务 。 
3.3.1 专业 情报 分 析 

根据 对 情报 分 析 人 员 的 分 析 流 程 调 研 , 笔 者 将 平 
台 专 业 情 报 分 析 功 能 分 为 创建 专题 - 专题 知识 组 织 - 
专题 数据 汇聚 - 专题 数据 清洗 规范 - 专题 情报 分 析 5 
个 步骤 ,如 图 2 所 示 : 


全 专题 情报 分 析 


维 , 49 种 
线 /柱状 /气泡 / 
网 


络 图 /云图 … 


内 容 分 析 


2 专业 情报 分 析 流 程 


(1) 创 建 专题 。 在 创建 专题 步骤 ,用 户 能 够 浏览 
已 经 创建 的 专题 列表 ,可 以 查看 已 经 创建 的 专题 名 称 、 


数据 量 数据 时 间 范 围 数据 类 型 .专题 创建 时 间 ,状态 
等 ,也 可 以 根据 需要 创建 新 的 专题 。 如 图 3 所 示 : 
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ailas.ac.cn/nstl/create.html 


专题 情报 数据 管理 与 智能 分 析 平台 页 和 20 硬 


创建 专题 专题 知识 组 织 专题 数据 汇聚 专 林 数据 清洗 现 范 专题 情报 分 析 


| 已 理 专题 列表 
序号 。” 专题 名 称 六 数据 量 (万 冬 ) 二 时 间 范 围 数据 类 型 创建 时 间 地 操作 状态 
1 大 数据 2.5061 不 限 期 刊 论文 .会 议论 文 ,专利 … 2020-09-15 08:13:52 豆 看 运行 中 
2 新 型 发 电 技术 259.8157 2016 - 2020 期 刊 论文: 会 议论 文 :专利 ;.… 2020-05-10 22:29:00 剖 看 运行 中 
3 新 一 代 人 工 畴 能 5.3591 2015 - 2019 期 刊 论文 ;会 议论 文 ;专利 ;.… 2020-04-02 21:33:11 豆 看 运行 中 
4 MERS-CoV 0.1328 2012 - 2019 期 刊 E 文 会 议论 文 专利 … 2020-02-06 21:28:20 童 看 运行 中 
3 SARS 0.1751 2003 - 2019 基 全 项 目 2020-02-03 23:28:57 吾 看 运行 中 
6 SARS-CoV 0.0602 2003 - 2019 专利 2020-02-03 00:14:07 查看 运行 中 
他 Severe acute respirator... 0.6848 2003 - 2019 期 刊 论文 ,会 议论 文 2020-02-02 10:56:59 本 看 运行 中 
到 1 页 议定 共 7 复 10 各 网 v 


图 3 平台 创建 专题 页 面 


0005v1 


加 (2 ) 专 题 知识 组 织 。 专 题 知 识 组 织 是 对 专题 领域 | 专题 名 称 的 自动 匹配 ,通过 STKOS API ”方式 获取 上 
的 年 究 范畴 和 知识 体系 进行 组 织 和 管理 ,为 下 一 步 专 ”下 位 类 .同义词 ,辅助 建立 知识 组 织 体系 。 支 持 用 户 对 
题 产 所 汇聚 提 供 知识 主题 。 如 何 通过 自动 化 方式 辅助 | 平台 自动 推荐 的 知识 组 织 体系 概念 ,标签 词 进行 编辑 、 
梅 姑 知 识 组 织 体系 和 检索 式 , 提 高 情报 分 析 人 员 的 工 | 修改 删除。 同时 支持 导入 或 节点 添加 方式 建设 知识 

率 ,是 平台 建设 需要 考虑 的 一 个 问题 。 组 织 体系 。 如 图 4 所 示 : 
> 在 专题 知识 组 织 步 台 ,下 合 利 用 STKOS 词 表 实现 


[LL | ai.las.ac.cn/nstl/topic.html 
(5 专题 情报 数据 管理 与 智能 分 析 平 台 


i 
二 
O 


创建 专题 专题 知识 组 织 专题 数据 汇聚 专题 数据 清洗 规范 专题 情报 分 析 


创建 专题 名 称 ; 。 新 一 代 人 工 智能 确定 导入 (下载 模板 ) 导出 文本 模式 或 可 视 化 模式 


文本 模式 可 视 化 模式 


自 新 一 代 人 工 智能 

节点 标 答 词 
专家 系统 
机 器 学 习 机 器 学 习 machine learning 
0 监督 学 习 
© 无 监督 学 习 监督 学 习 Supervised learning 
9 强化 学 习 

无 监督 字 习 Unsupervised learning 
自然 滞 言 处 理 
计算 机 视觉 强化 学 习 Reinforcement learning 
人 脸 识别 

加 于 1 页 两 主 共 4 条 10 所 页 v 

图 像 识 别 


图 4 平台 专题 知识 组 织 页 面 
(3) 专题 数据 汇聚 。 在 专题 数据 汇聚 步骤 ,平台 仿 索 清洗 规范 和 情报 分 析 。 也 就 是 说 用 户 通过 一 套 
将 期 刊 论文 .会议 论文 .专利 .基金 项 目 等 多 来 源 多 类 | 流程 化 操作 ,可 以 得 到 不 同类 型 数据 基础 的 分 析 报 告 ， 
型 数据 集成 为 一 体 。 平 台 支 持 对 多 种 类 型 数据 的 并 行 ”| 以 提升 专题 情报 分 析 速 度 和 效率 。 
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于 倩 傅 , 钱 力 , 程 冰 , 等 . 专题 情报 数据 管理 与 智能 分 析 平 台 的 构建 [可 .图书 情报 工作 ,2020 ,64(24) :92 - 105. 


平台 支持 用 户 通过 基础 检索 发 现 ,. 专 业 检索 式 或 
本 地 导 和 人 方式 获取 数据 ,支持 通过 选择 知识 主题 (专题 
知识 组 织 体系 中 的 节点 ,默认 选择 节点 、 同 义 词 及 下 位 


* 题 情报 数据 管理 与 智能 分 析 平台 


类 ) 自 动 生 成 检索 式 。 如 图 5 所 示 。 检 索 结 果 按 照相 
关 性 、. 时 间 进 行 排序 ,从 多 角度 对 获取 的 数据 进行 分 本 
揭示 。 


创建 专题 专题 知识 组 织 专题 数 括 汇聚 专题 数据 清洗 规范 专题 情报 分 析 
当前 创建 专题 名 称 : 新 一 代 人 工 智能 
MN 基础 恰 过 发 现 。 专业 检索 式 号 入 本 地 数据 
NSTL 全 论文 入 


图 NSTL 核 心 论文 入 


KY="Artificial intelligence” OR “machine learn*” OR "NLP” OR “natural language 布尔 运算 符 : AND、OR、NOT、NEAR 
图 专利 数据 process* OR “computer vision” OR “fac* recognition” OR “retinal recognition” OR ts 
国 二 全 项 目 “iris recognition" OR "palmprint recognition” OR “image recognition”OR “speech 字 和 标识: 论文: 
recognition” OR “pattern recognition” OR “speaker recognition” OR “semantic” TS= 主 是, Til= 要 名 ，KY= 关 键 词 ，PY= 出 版 年 ,1S=1SSN， 
OR “text analytics* OR "Virtual assistant”OR “visual search” OR “Predictive AU= 作 者 ，AF= 机 构 ，SO= 出 版 饰 侣 称 ，AB= 渍 要 ，SU= 字 科 
文献 类 型 analytics” OR “intelligent system” OR “ANNs* OR “CNNs”* OR “artificial neural 和 领 城 ，CF= 会 议 ，CU= 国 家 /地 区 ，CI= 城 市 
networks” OR "expert system" OR “GPU" OR “TPU" OR “intelligent chip” OR “data 
De 图 因 刊 论文 mining” OR "Knowledge fusion* OR "Simultaneous localization and mapping" OR 字段 标识 : 专利 : 
“SLAM" OR “algorithm" OR "deep leaming” OR "Supervised leaming” OR Ds 3 和 < 
> 图 会 议论 文 "Unsupervised learning" OR "Reinforcement learning"” OR "convolutional neural ee pe 
LO 图 专利 networks* OR "data cluster*”OR "Activity recognition” CU ; ee Ep ; 
© 图 至 全 项 上 字段 标识 ， 基金 项 目 : 
© TS= 主 是 ,TIl= 要 名 ，KY= 关 键 词 ，A8= 所 要 ，AS= 项 目 开始 年 ， 
时 间 跨 度 SU= 项 目 学 科 ，FO= 基 全 资助 机 构 ，CU= 国 家 /地 区 
© 2015 - 2019 
< 十 新 一 代 人 工 特 阴 
©O we 
县 | 心 米 
CN 图 5 平台 专题 数据 检索 页 面 


QN(4) 专题 数据 清洗 规范 。 数 据 清洗 规范 是 情报 分 
析 演 作 的 重要 步骤 ,是 保证 分 析 结 果 准 确 可 靠 的 前 提 
乱 合 。 在 专题 数据 清洗 规范 步骤 ,平台 通过 去 重 、 检 
索 @ 重 序 ,删除 等 方式 对 数据 集 进行 清洗 规范 。 平 台 允 
许 因 户 遵循 合理 使 用 的 原则 ,导出 数据 , 单 次 可 导出 
5 加 条 。 在 科研 实体 自动 清洗 规范 方面 ,平台 以 全 量 
数据 自动 清洗 规范 结果 为 基础 ,应 用 到 所 检索 获取 的 
数据 集 。 相 较 于 只 针对 数据 集 的 清洗 规范 ,更 能 挖掘 
科研 实体 之 间 的 关联 ,提升 规范 效果 。 

平台 以 世界 各 国 和 地 区 名 称 规范 代码 表 为 基础 ， 
对 国家 /地 区 进行 自动 清洗 规范 。 采 用 层次 化 混合 结 
构 的 深度 学 习 框架 模型 ,利用 单 层 双向 LSTM 网 络 向 
量 语义 匹配 .字符 编辑 距离 结合 的 方式 ,对 机 构 名 称 相 
似 度 进行 计算 , 辅 以 国家 ,城市 .邮编 .机 构 名 称 排序 特 
征 ,对 机 构 进行 自动 清洗 规范 ;采用 作者 名 称 消 歧 规 则 
集合 ,对 作者 进行 自动 清洗 规范 上 。 借 助 STKOS 词 表 
的 规范 概念 和 同义词 ,对 关键 词 进行 自动 清洗 规范 。 
平台 支持 对 非 规范 名 称 的 人 工 编辑 规范 以 及 对 多 个 非 
规范 名 称 合并 的 功能 ,默认 按照 发 文 量 对 规范 名 称 进 
行 排序 。 见 图 6。 

(5 ) 专题 情报 分 析 。 在 专题 情报 分 析 步 又 ,考虑 


到 大 数据 时 代 的 科技 情报 工作 ,单一 维度 的 信息 分 析 
难以 满足 需求 ,需要 以 多 维度 的 视角 从 数据 和 方法 上 
实现 创新 ” ,平台 设置 了 计量 分 析 模 块 和 内 容 分 析 模 
块 。 不 同 的 数据 类 型 对 应 不 同 的 分 析 维度 , 诅 和 人 Ech- 
arts \Cephi 等 开源 工具 对 分 析 结 果 进 行 可 视 化 ,显示 方 
式 为 折线 图 .柱状 图 .气泡 图 .堆积 图 .网络 图 . 词 云图 、 
地 图 等 ,分 析 结 果 图 可 下 载 。 

在 计量 分 析 模 块 ,主要 是 对 年 代 、 国 家 /地 区 、 机 
构 、 作 者 ,关键 词 .技术 构成 等 结构 化 内 容 进 行 统计 分 
析 、 合 作 网 络 分 析 、 共 词 分 析 , 如 图 7 所 示 。 论 文 、 专 
利 、 基 金 项 目 分 别 具 有 15 种 .21 种、13 种 分 析 维 度 。 
在 内 容 分 析 模 块 ,主要 是 从 非 结构 化 科技 文献 内 容 中 ， 
采用 主动 学 习 指 导 的 深度 学 习 抽 取 框 架 对 研究 问题 、 
关键 技术 以 及 相互 之 间 的 关系 进行 抽取 ,从 语义 层 
面 丰富 专题 情报 智能 分 析 体 系 。 对 抽取 的 研究 问题 、 
关键 技术 进行 数量 统计 分 析 和 关联 分 析 , 如 图 8 所 示 。 
论文 专利 .基金 项 目 分 别 具 有 11 种 16 种 、11 种 分 析 
维度 。 

用 户 可 对 不 同类 型 数据 的 分 析 维 度 进 行 筛 选 , 自 
动 生成 和 导出 情报 分 析 报 告 。 分 析 报 告 上 带 有 NSTL 
图 标 等 产权 特征 ,报告 内 容 包 括 分 析 检索 式 数据 量 、 
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内 站 题 情报 数据 管理 与 智能 分 析 平 台 


精品 专题 示范 


关于 我 们 咏 


创建 专题 专题 知识 组 织 专题 数 据 汇 聚 专题 数据 清洗 规范 专题 情报 分 析 
当前 创建 专题 名 称 : 新 一 代 人 工 智能 
数控 集 清洗 。 @ 期 刊 论文 会 议论 文 。 专利 基金 项 目 
国家 /地 区 规范 。 @O 。 。 当前 共 9826 机 构 保存 到 我 的 规范 应 
© 
序号 规范 名 称 别称 操作 发 文 量 = 
作者 规范 © 
1 中 国 科学 院 Chinese Acad Sci 规范 删除 ” 507 
关键 词 规范 © 
2 南京 大 学 Nanjing Univ 规范 ”删除 167 
3 清华 大 学 Tsinghua Univ 规范 ”删除 148 
4 浙江 大 学 Zhejiang Univ 规范 删除 ”142 
T 5 上 海 交通 大 学 Shanghai jiao Tong Univ 范 删除 131 
LO Re 
© 图 6 平台 专题 数据 清洗 规范 页 面 
© 专题 情报 数据 管理 与 智能 分 析 平台 nee FR] 二 
图 
© 创建 专 是 专题 知识 姐 织 专题 数据 汇聚 专题 数据 清洗 规 包 专题 情报 分 析 
= 当前 创建 专题 名 称 : 新 一 代 人 工 智能 
N rr 
加 图 
.之 论文 。” 专利 基金 项 目 导出 报告 
人 趋势 分 析 
四 机 构 分 析 TOP10 机 构 ~ 
= 机 构 分 布 . 〇 - 中 国 科学 皖 - 〇 - 丙 训 大 学 - 〇 - 肖 > 将 交 通 大 学 _ 〇 ”武汉 大 学 > 扣发 旺 学 
-二 机 构 发 让 OE 学 
© 机 构 合作 网 络 
国家 /地 区 分 析 
作者 分 析 
期 刊 分 析 
关键 词 分 析 
研究 热点 


图 7 平台 计量 分 析 页 面 


文献 类 型 时 间 范 围 , 以 及 计量 分 析 或 内 容 分 析 的 分 析 
图 表 结 果 数据 和 相关 文字 内 容 描述 。 用 户 还 可 选择 要 
公开 的 分 析 维 度 和 专题 ,在 平台 前 端 发 布 , 供 其 他 用 户 
浏览 专题 的 计量 分 析 和 内 容 分 析 结 果 ,较为 深入 地 了 
3.3.2 数据 管理 

根据 与 情报 分 析 人 员 的 交流 访谈 以 及 对 现 有 情报 
分 析 数 据 的 存储 现状 分 析 , 笔 者 将 分 析 检 索 式 、 数 据 


集 、 规 范 数据 、 分 析 报 告 纳 入 专题 情报 数据 管理 与 智能 
分 析 平 台 的 数据 管理 范畴 。 分 析 检 索 式 为 情报 分 析 人 
员 检 索 数 据 时 所 用 到 的 检索 式 , 数 据 集 为 检索 结果 数 
据 集 或 经 人 工 参 与 处 理 后 的 数据 集 ,规范 数据 包括 国 
家 /地 区 规范 数据 .机构 规范 数据 \ 作 者 规范 数据 、 关 键 
词 规范 数据 ,分 析 报 告 为 系统 自动 生成 报告 或 经 情报 
分 析 人 员 加 工 撰写 的 报告 。 

笔者 设计 了 在 线 专题 情报 分 析 与 专题 情报 数据 管 
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专题 情报 数据 管理 与 智能 分 析 平 台 


精品 专题 示范 


xn ” 才 


创建 专题 


当前 创建 专题 名 称 : 新 一 代 人 工 智能 
计量 分 析 


内 容 分 析 


论文 专利 


基金 项 目 


研究 问题 分 析 


Top 研 究 局 是 
Top 研 究 同 是 闲 劳 


研 宛 问题 时 间 分 布 -fc BO foce recoorition BR pattem recognition 


研究 问题 空间 分 布 
关键 技术 分 析 
技术 问题 关联 分 析 


热点 识别 


4.00005v1 


图 8 


再 到 交互 方式 ,满足 专题 情报 分 析 过 程 中 的 高 价 信和 中 

0 用 户 点 击 保存 检 

索 过 按钮, 能够 将 专题 数据 汇聚 步 又 的 检索 式 自动 保 

存 到 检索 式 管理 列表 。 点 击 确定 导入 专题 库 按钮 ,能 

能 莉 检索 结果 数据 集 自动 保存 到 数据 集 管理 列表 。 点 

击 保存 到 我 的 规范 库 按钮 ,能够 将 专题 数据 清洗 规范 
CS 


[| STKOS 
_ M 
创建 专题 知 
情报 分 析 流 程 专题 识 组 织 


导出 报告 


平台 内 容 分 析 页 面 


步 又 的 科研 实体 规范 数据 自动 保存 到 规范 数据 管理 列 
表 。 点 击 保存 报告 ,能够 将 专题 情报 分 析 步 又 自动 生 
成 的 报告 保存 到 分 析 报 告 管理 列表 。 同 时 支持 用 户 对 
本 地 数据 进行 上 传导 入 ,解决 融 人 科技 情报 专家 智慧 
数据 处 于 分 散 自 存储 的 问题 。 如 图 9 所 示 : 


论文 、 专 利 、 名 称 规范 库 

“关上 数据 接口 
时 
专题 数 专题 情 
据 汇 要 报 分 析 


专题 数 
@ 党 
规范 

范 库 


rr 


a 


系统 在 线 交 互 (、 保存 检索 式 人 


保存 报告 


保存 到 我 的 规 


数据 管理 检索 式 数据 集 规范 数据 分 析 报告 
管理 管理 管理 管理 
会 会 会 会 


支持 本 地 导 人 


图 9 


用 户 在 专题 情报 分 析 过 程 中 实时 保存 的 规范 数据 
或 本 地 上 传 的 规范 数据 ,将 自动 应 用 于 后 续 所 建 专题 
的 科研 实体 数据 清洗 规范 ,辅助 提升 后 续 专 题 科研 实 
体 数 据 清 洗 规范 效果 。 不 同 的 数据 类 型 描述 方式 有 所 
不 同 ,分 析 检 索 式 描述 字段 包括 检索 式 、 检 索 词 ,所属 


支持 本 地 导 人 


支持 本 地 导 人 支持 本 地 导 人 


数据 管理 与 专业 情报 分 析 流程 交互 


专题 ,标签 ,创建 时 间 ,规范 数据 描述 字段 包括 规范 名 
称 、 其 他 名 称 、 创 建 时 间 ,数据 集 描 述 字段 包括 数据 集体 
量 \ 获 取 方 式 、 所 属 专 题 , 数 据 年 限 、 数 据 类 型 .创建 时 
间 , 分 析 报 告 描 述 字 段 包括 报告 名 称 、 报 告 类 型 数据 年 
限 所属 专题 .生成 方式 .创建 时 间 。 如 图 10 所 示 : 


99 


图 吉 情 报 研 作 


第 64 卷 第 24 期 2020 年 12 月 


ChinaXiv 合 作 期 刊 


# 题 情报 数据 管理 与 智能 分 析 平台 


QQ 合并 导入 (下 驱 极 板 ) 导出 删除 
数据 量 = 获取 方式 二 所 属 专题 人 数据 年 限 数据 类 型 创建 时 间 = 操作 
2.5061 检索 发 现 大 数据 不 限 期 刊 iE 文 会 2020-09-15.… 删除 公开 
259.8157 粒 球 点 现 新 型 发 电 技术 2016 - 2020 期刊 论文 会 2020-05-10… 删除 公开 
3 5.3591 答 索 发 现 新 一 代 人 工大 月 2015 - 2019 期 刊 论文 会 2020-04-02... 删除 公开 
4 0.1328 检索 发 现 MERS-CoV 2012- 2019 期 刊 论 文 会 . 2020-02-06... 删除 公开 
5 0.1751 检索 发 现 SARS 2003 - 2019 基金 项 目 2020-02-03... 删除 公开 
6 0.0602 检索 发 现 SARS-CoV 2003 - 2019 专利 2020-02-03..， 删除 公开 
7 0.6848 检索 点 现 Severe acute re... 2003 - 2019 期 刊 论文 会 … 2020-02-02... ”删除 公开 
国 到 备 1 页 确定 共 7 条 ”10 条 页 vv 


| 


> 
LO 〇 平台 支持 用 户 对 所 管理 的 分 析 检 索 式 .数据 集 . 规 


落 矣 据 分析 报 告 进行 导出 ,实现 数据 的 重复 利用 。 平 
os 
户 撤 击 了 公开 按钮 , 则 会 将 数据 共享 给 平台 其 他 用 户 。 
态 背 择 公 开 后 , 若 由 于 某 些 原因 不 想 或 不 便 公开 ,可 再 
才 畏 不 公开 ,平台 会 将 已 公开 数据 撤回 ,数据 重新 加 到 
礁 仿 开 状 态 。 点 击 数据 集 管理 中 的 数据 体 量 ( 万 条 ) 
产 齐 , 则 可 实现 专题 情报 分 析 过 程 的 快速 复 现 。 

3, 避 3 竞争 力 评价 分 析 

>< 为 丰富 专题 情报 分 析 形 式 , 拓 展 分 析 服 务 层次 , 平 
各 品 加 了 竞争 力 评价 分 析 功能 ,能 够 对 不 同 国家 或 地 


© 


二 级 指标 | 国 三 级 指标 


-a = 
二 


三 级 指标 


一 一 一 一 一 -一 


| 已 


10 ”数据 集 管理 


区 的 专题 领域 发 展 水 平 进行 分 析 评 价 。 欧 争 力 评价 分 
析 功 能 遵循 数据 来 源 广泛 .评价 内 容 全 面 ` 有 总 体 分 析 
和 分 项 分 析 、 多 样 化 的 指标 体系 、 多 种 可 视 化 表现 方式 
等 评价 原则 和 方法 ” 。 

竞争 力 评价 模型 是 竞争 力 评 价 分 析 的 核心 ,笔者 
设计 了 5 个 一 级 指标 、13 个 二 级 指标 、14 个 三 级 指标 
的 竞争 力 评 价 指标 体系 ,如 图 11 所 示 。 平 台 文 持 评价 
模型 管理 和 对 应 的 指标 体系 管理 ,能 够 对 评价 模型 进 
行 增 \ 删 改 , 能 够 按照 评价 模型 名 称 、 类 型 等 对 模型 进 
行 检 索 ,能 够 对 指标 进行 增删 ` 改 ,权重 设置 等 。 见 图 
12。 


竞争 力 评价 指标 体系 


图 11 竞争 力 评价 指标 体系 示意 
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于 倩 傅 , 钱 力 , 程 冰 , 等 . 专题 情报 数据 管理 与 智能 分 析 平 台 的 构建 [可 .图书 情报 工作 ,2020 ,64(24) :92 - 105. 


专题 情报 数据 管理 与 智能 分 析 平 台 


精品 专题 示范 。” 关 于 我 们 【 


新 增 删除 Q 
序号 。 模型 名 称 人 说 明 模型 类 型 接 作 

1 人 工 暂 能 之 争 力 评价 模型 综合 对 比 评价 全 球 各 国 、 国 内 各 创新 中 心 ， 人 工 暂 ..， 。 国家 指标 ”导入 全 部 数据 分 析 删除 
共 1 和 旭 “10 如 页 ~ 
新 增 。 “删除 指标 类 型 - v Q 

序号 ”编码 $ 指标 名 称 全 指标 星 级 指标 兴 型 数据 类 型 说 明 权重 操作 

1 003-14  ” 校 企 共有 专利 数量 二 级 指标 国家 校 企 共有 专利 数量 0.5 删除 

2 ”003-13  “ 校 企 合 奋 期 刊 论 ... 二 级 指标 国家 校 企 合 盏 其 刊 论文 数量 05 删除 

3 ”003-12 ”专利 授权 数量 二 级 指标 国家 专利 授权 数量 025 删除 

a 12 评价 模型 管理 


LO 由 于 专题 国家 或 区 域 竞 争 力 评价 分 析 往 往 会 涉及 


全 与 智能 分 析 平台 重点 
对 过 题 国家 或 区 域 竞争 力 分 析 维 度 ,综合 评价 结果 进 
得 可视化 展示 和 图 表 揭 示 。 笔 者 根据 所 设计 的 竞争 力 
评 确 指标 体系 ,设置 了 竞争 力 评价 分 析 所 需 数据 的 组 
组 广 式 模板 , 供 平 台 用 户 下 载 使 用 。 用 户 根据 该 模板 
组 弄 数 据 ,并 导入 上 传 到 平台 中 , 则 可 进行 相应 的 数据 
可 狐 化 展示 。 
沁 竞 争 力 评价 分 析 结 果 可 在 平台 前 端 发 布 , 供 其 他 
用 出 了 解 不 同 国家 或 地 区 的 专题 领域 发 展 水 平 。 可 视 
化 里 表 可 下 载 ,辅助 提升 情报 分 析 人 员 撰 写 或 生产 专 
题 载 争 力 分 析 报 告 的 速度 和 效率 。 
3.4 实现 效果 

专题 情报 数据 管理 与 智能 分 析 平台 是 NSTL2019 
年 部 署 的 牵引 新 型 数据 服务 与 情报 分 析 服 务 于 一 体 化 
的 信息 化 示范 平台 (http://ai. las. ac. en)。 平台 基于 
B/S 架构 ,使 用 Java 语言 开发 ,采用 基于 Springcloud + 
Springboot 的 Web 微服 务 框架 ,数据 存储 使 用 Hlastic- 
search .MySQL、Redis 等 数据 库 混 合 存 储 框架 ,展示 采 
用 可 组 件 化 的 Vue 进行 页 面 交互 。 目 前 平台 已 经 完成 
一 期 研发 ,并 对 外 发 布 试 运营 。 
3.4.1 ”充分 利用 已 汇聚 科技 大 数据 资源 ,一 套 操作 流 
程 可 获取 多 类 型 分 析 报告 

平台 突破 了 单一 数据 源 或 单一 数据 类 型 的 限制 ， 
充分 利用 已 汇聚 的 科技 大 数据 资源 ,将 期 刊 论文 .会 
议论 文 专利 .基金 项 目 等 多 来 源 、. 多 类 型 数据 集成 
为 一 体 。 平 台 界 面 友好 、 操 作 简单 ,设计 了 向 导 式 的 


A 


专业 情报 分 析 过 程 步骤 ,实现 专业 情报 分 析 的 流程 
化 管理 。 用 户 通过 一 套 流 程 化 操作 ,可 获得 不 同类 
型 数据 基础 的 分 析 报 告 。 相 较 于 科技 文献 检索 平 
台 , 更 多 地 内 入 了 数据 清洗 规范 功能 和 不 同类 型 数 
据 的 管理 功能 。 相 较 于 情报 分 析 软 件 ,实现 了 从 数 
据 检索 到 数据 分 析 的 整个 流程 , 既 支 持 本 地 检索 ,也 
支持 数据 导入 ,弥补 了 情报 分 析 软 件 仅 支持 数据 导 
人 的 不 足 。 
新 冠 疫情 爆发 期 间 , 笔 者 通过 平台 Demo 版 本 的 
专业 情报 分 析 功 能 ,快速 分 析 与 生成 了 以 论文 .专利 、 
项 目 为 基础 的 MERS-Cov 数据 分 析 报 告 和 SARS-Cov 
数据 分 析 报 告 ,引起 了 业界 的 关注 和 共鸣 。 负 责 “ 先进 
轨道 交通 ”专题 的 情报 分 析 人 员 利 用 平台 的 全 流程 自 
动 化 情报 研究 报告 生产 机 制 ,完成 了 相关 分 析 报 告 ,为 
轨道 交通 行业 相关 用 户 提 供 了 更 快速 精准、 全 面 的 情 
报 支撑 服务 ” 。 在 平台 前 端 发 布 的 专题 ( MERS-Cov、 
SARS-Cov) 如 图 13 所 示 ,专题 名 称 右 侧 显示 分 析 所 用 
的 数据 类 型 ,下 侧 显 示 部 分 分 析 结 果 。 点 击 右 侧 更 多 
按钮 ,用户 登录 后 可 以 看 到 该 专题 的 所 有 计量 分 析 和 
内 容 分 析 结果 。 
3.4.2 实现 了 多 维 多 层 次 分 析 , 集 成 了 多 种 情报 分 析 
方法 和 深度 学 习 算 法 

平台 支持 多 维 多 层 次 分 析 模 式 , 既 包括 计量 分 析 、 
内 容 分 析 ,也 包括 竞争 力 评 价 分 析 ,满足 不 同类 型 的 专 
题 情报 分 析 需 求 。 计 量 分 析 利用 统计 分 析 、 合 作 网 络 
分 析 、 共 词 分 析 等 情报 分 析 方 法 ,对 发 文 趋势 .科研 合 
作 网 络 及 人 研究 热点 等 进行 揭示 。 专 题 数据 清洗 规范 、 
内 容 分 析 分 别 利用 不 同 的 深度 学 习 算 法 对 科研 实体 消 
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图 专题 情报 数据 管理 与 智能 分 析 平 台 


专题 情报 数据 管理 与 智能 分 析 


之 集 


| MERS-Cov 


发 文 年 度 趋势 Top10 。 


人 开导 
250 236 
185 
200 171 182 
125 
100] 77 
4 64 


005V1 


战 肯 一 对 非 结构 化 文献 内 容 中 的 研究 问题 和 关键 技 
榴 放 识别 抽取 。 竞 争 力 评价 分 析 利 用 统计 分 析 、 对 
H 获 析 综合 评价 等 方法 对 指标 分 项 结果 和 综合 分 析 
绩 堪 进行 展示 。 
bx* 新 一 代 人 工 智能 ”竞争 力 评价 分 析 应 用 示范 
实现 为 例 , 平 台 围绕 新 一 代 人 工 智 能 及 细 分 产业 ,以 战 
略 玻 策 .产业 布局 .科技 发 展 .资本 支持 .产业 前 景 为 一 
级 担 标 ,并 相应 建立 了 13 个 二 级 指标 .14 个 三 级 指标 ， 
构 旺 了 竞争 力 评价 模型 ,综合 对 比 评价 全 球 各 国 、 国 内 
各 三 新 中 心 的 产业 发 展 水 平 。 全 球 各 国 新 一 代 人 工 知 
能 四 业 发 展 综合 分 析 评价 结果 如 图 14 所 示 。 其 中 研 
略 政策 分 析 评 价 政策 支持 力度 及 趋势 ,所 用 数据 为 政 
策 类 数据 。 产 业 布 局 分 析 评 价 基础 层 .技术 层 ,应 用 层 
等 企业 分 布 ,所 用 数据 为 企业 数据 。 科 技 发 展 包括 科 
技 投入 、 产 出 水 平 以 及 科技 合作 水 平 ,所 用 数据 为 论 
文 .专利 .项 目 数据 。 资 本 支持 评价 社会 资本 投入 情 
况 , 所 用 数据 为 投 融 资 类 数据 。 产 业 前 景 评价 分 析 产 
业 市 场 发 展 潜力 ,所 用 数据 为 市 场 数据 。 点 击 战略 政 
策 .产业 布局 .科技 发 展 等 一 级 指标 ,可 以 看 到 二 级 指 
标 或 三 级 指标 形成 的 分 析 维 度 。 

此 外 ,平台 明确 了 数据 管理 对 象 ,能 够 对 专题 情报 
分 析 过 程 中 产生 的 数据 以 及 用 户 本 地 数据 进行 保存 、 
管理 。 目 前 ,平台 处 于 推广 试 运 营 阶段 ,用 户 40 余 
位 ,来 自 18 个 单位 (NSTL 成 员 单位 或 服务 站 ) 。 平 
台 在 数据 精准 度 .数据 计算 速度 以 及 用 户 体验 等 方 


强 kie 文 ” 汪 54 专 利 图 217 项 目 更 估 


| SARS-Cov 0.6k 专 利 更 多 


专利 公开 趋势 TOP10- 


公 囊 少 vb 


13 “平台 首页 


面 仍然 有 比较 大 的 改善 空间 。 项 目 组 将 以 “ 边 服 务 、 
边 建 设 、 边 完善 ”的 组 合 方式 ,对 平台 功能 进行 优化 
和 完善 ,为 NSTL 专题 情报 服务 提供 新 的 支撑 和 发 
力 点 。 


4 结语 


数据 服务 与 平台 工具 是 未 来 智能 情报 模式 转型 
升级 的 必须 阶段 ,更 是 现 阶段 有 效 解 决 情报 分 析 人 
员 面 临 体 量 大 、 需 求 类 型 多 ,任务 要 求 紧急 的 情报 服 
务 需 求 的 新 路 径 与 新 方法 。 专 题 情报 数据 管理 与 智 
能 分 析 平 台 是 具有 自主 知识 产权 的 数据 管理 与 情报 
分 析 工 具 , 将 多 来 源 多 类 型 数据 集成 进来 ,为 深度 挖 
据 和 释放 多 源 汇聚 的 科技 数据 资源 价值 提供 抓 手 。 
提供 多 维 多 层 次 分 析 服 务 ,将 情报 分 析 过 程 流程 化 
和 智能 化 。 打 通 从 数据 到 分 析 的 服务 链条 ,探索 多 
样 化 分 析 服 务实 现 方式 ,无 缝 舱 入 多 种 情报 分 析 方 
法 和 深度 学 习 算法 ,同时 对 分 析 过 程 数 据 和 情报 分 
析 人 员 的 历史 积累 数据 进行 管理 ,丰富 服务 模式 , 提 
升 情报 分 析 人 员 服 务 能 力 ,提高 服务 需求 响应 速度 。 
未 来 ,将 从 文本 分 析 、 语 义 分 析 等 角度 探索 更 多 复杂 
情报 分 析 需 求 的 解决 方案 ,对 平台 进行 持续 优化 、 完 
善 和 迭代 升级 ,将 平台 建设 成 为 情报 分 析 人 员 的 常 
用 工具 ,帮助 情报 分 析 人 员 更 好 更 快速 地 完成 情报 
分 析 工 作 。 


102 


ChinaXiv 合 作 期 刊 
于 倩 倩 , 钱 力 , 程 冰 , 等 . 专题 情报 数据 管理 与 智能 分 析 平台 的 构建 [J]. 图 书 情报 工作 ,2020 ,64(24) :92 -105. 


专题 情报 数 据 管理 与 害 能 分 析 平 台 页 Hei 。 FR] 才 = 


新 一 代 人 工 智能 专题 


转 锐 人工 吞 能 及 业 ， 从 总 瞻 政 冯 


羡 份 : 2019 年 如 分 产业 * 全 肯 
版 站 开锁 产业 布局 产业 前 景 次 于 支持 科 靶 发 展 
和 <。 融资 全 蜂 ( 亿 美元 ); 324,13 科技 投入 :专利 申请 量 ; 0 
政策 文件 数量 : 10 企业 数量 : 3181 市 场 规 棋 [ 亿 美元 ): 404.62 融资 次 玫 : 798 科技 产 出 :专利 版 权 量 : 25563 
医 2019 年 全 球 人 工 智能 评分 对 比 = 


I, 


Y 


202304.00005v1 


+ — 一 一 一 ] 
2015 2016 2017 2018 2019 


chinaXiv 


国家 / 坦 区 战略 政 千 产业 布局 科技 发 展 资本 支持 产业 前 暴 本 年 得 分 上 年 揭 分 分 值 夺 化 本 鞭 排 名 * 上 期 排名 排名 变化 


中 国 56.88 93.32 47.10 | 93.36 | 89.45 | 76.02 | 76.33 0.31 1 2 全 1 
美国 | 35.12 | 1.36 | 43.05 | 8.38 | 92.17 | 72.02 | 81.40 | 9.38 | 2 | 1 | -1 
乔 国 | 25.12 | 63.32 | 31.48 | B83.75 | BS.62 | 57.86 64.05 6.19 3 他 1 
英国 | 000 | 68.30 | 32.58 | 83.73 | 84.14 | 53.75 | 69.30 | 14.55 | 4 | 3 | -1 
韩国 | 28.07 | 54.82 | 29.58 | 7523 | 78.38 | 53.22 | 55.05 | 1.83 | 5 | 7 | +2 
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靳 萝 :提出 平台 建设 目标 ,总体 需 求 和 平台 完善 思路 。 


加 


思路 ,提出 论文 修改 意见 ,论文 
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Analysis Platform for Subject Information 
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“ Department of Library, Information and Archives Management, School of Economics and Management, 
University of Chinese Academy of Sciences ，Beijing 100190 
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”Agricultural Information Institute of Chinese Academy of Agricultural Sciences, Beijing 100081 
Abstract: | Purpose/significance | In order to meet the subject information service needs of multi-disciplinary 
and multi-type users ，we construct a data management and intelligent analysis platform. Creating an intelligent analy- 
sis flow and managing different types of subject data that reflect experts ”wisdom ，the platform aims to enrich the 
service model and improve the service speed. | Method/process | On the basis of investigating existing relevant re- 
earch and practice, we proposed the design idea and construction framework of the platform, and analyzed the main 
Lfinctions and key technologies. | Result/conclusion | The platform has been completed. lt integrates multiple 
lies ed multiple types of data, opens up the service chain from data to analysis, embeds a variety of information 
Canalysis methods and deep learning algorithms, realizes multi-dimensional analysis services. lt can manage analysis 
Chidcess data and history data from information analysts, and then realize data sharing and reuse. 
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